林深见鹿(十一):概率论与数理统计(10)
Today, the editor brings the "Deep in the Woods, the Deer Appears (Part 11): Probability Theory and Mathematical Statistics (10)".
Today, the editor brings the "Deep in the Woods, the Deer Appears (Part 11): Probability Theory and Mathematical Statistics (10)".
定义了强化学习中的熵塌缩问题,并从 4 个模型家族,11 个模型上总结了熵与性能之间的经验转换公式,证明了策略熵在强化学习中的重要性。从理论与实践的角度发现了强化学习时的策略熵变化的驱动力:动作(模型输出的 token)发生的概率及其对应获得的优势之间协方差。